شناسایی موجودیت های همانند در وب داده

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان
نویسنده ساره آقایی
استاد راهنما محمدعلی نعمت بخش
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1390

چکیده

وب داده به منظور ایجاد وب قابل فهم برای ماشین ها معرفی شده است که اتصالات معنادار بین موجودیت ها از ویژگی های اصلی آن است. یکی از مهم ترین اتصالات معنادار در وب داده، اتصالات همانندی است که بین موجودیت های همانند ایجاد می شود. شناسایی و اتصال موجودیت هایی که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند، موجب می شود عامل ها و پویشگرها بتوانند با پیمایش وب اطلاعات بیشتری در مورد موجودیت ها استخراج نمایند. مسأله پژوهشی در این تحقیق شناسایی و اتصال موجودیت های همانند در وب داده است. هدف از این تحقیق، ارائه یک مدل به منظور شناسایی و اتصال موجودیت های همانند در وب داده است به گونه ای که این مدل بتواند با شناسایی صحیح موجودیت ها و اتصال آن ها به یکدیگر، جستجو و استخراج دانش از کل منابع موجود در وب را بهبود بخشد. مدل پیشنهادی شامل چهار ماژول اصلی است: ماژول همتراز سازی آنتولوژی ها، ماژول فیلتر گذاری، ماژول محاسبه درجه تشابه و ماژول کلاس بندی. مدل پیشنهادی قابل به کارگیری روی مجموعه داده های مختلف با آنتولوژی ها و فرهنگ لغات متفاوت و همچنین مستقل از دامنه ی مجموعه داده ها است. انتشار تشابه مقادیر ویژگی های متناظر موجودیت ها روی یکدیگر در گراف و استفاده از الگوریتم k نزدیک ترین همسایه از ویژگی های اصلی در مدل پیشنهادی است. مدل پیشنهادی پیاده سازی شده است و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور شناسایی فیلم های همانند و دو مجموعه داده sider و drugbank به منظور شناسایی داروهای همانند ارزیابی شده است. پس از مقایسه نتایج به دست آمده با نتایج ابزار silk، مشخص شد دقت شناسایی مدل پیشنهادی در مقایسه با ابزار silk بهبود قابل ملاحظه ای دارد.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

رفع اختلاف مقادیر داده ای میان موجودیت های همانند در وب داده ها

وب داده های پیوندی به سرعت در حال گسترش می باشد و در حال حاضر شامل داده هایی از صدها مجموعه داده ی متفاوت می باشد. کیفیت داده های این مجموعه داده ها بسیار متغیر است، به طوریکه ممکن است این داده ها قدیمی، ناقص و یا نادرست باشند. از طرف دیگر امکان دارد مجموعه داده ها اطلاعات متناقضی درمورد یک موجودیت واحد در جهان واقعی ارائه کنند. به منظور استفاده ی برنامه های کاربردی داده های پیوندی از این فضای...

15 صفحه اول

رتبه بندی موجودیت در وب داده

امروزه، موتورهای جستجو به یکی از برنامه های کاربردی بسیار مهمِ وب تبدیل شده اند که هدف آن ها کمک به کاربر در جهت یافتن اطلاعات است. موتورهای جستجو همچون گوگل و یاهو کلمات کلیدی کاربر را دریافت می کنند و در صفحات وب بر اساس الگوریتم های از قبل تعریف شده به دنبال کلمات کلیدی وارد شده می گردند. سپس صفحات بازیابی شده را بر اساس الگوریتم رتبه بندی، مرتب و به کاربر نشان می دهند. با ظهور فناوری وب مع...

15 صفحه اول

خوشه بندی موجودیت ها در داده های پیوندی

وب معنایی شامل قرار دادن داده ها روی وب و ساختن ارتباطات به گونه ای است که انسان و ماشین بتوانند محتوای وب داده را کاوش نمایند. هدف وب معنایی افزایش توانایی ماشین ها در دسترسی به منابع موجود در وب، پردازش و بکارگیری آن ها می باشد. با توجه به رشد گسترده ی داده های پیوندی و افزایش مجموعه داده ها در چند سال اخیر، نیاز به ابزاری برای کشف پیوند در مقیاس وسیع احساس می شود. ابزارهای کنونی برای کشف پیو...

15 صفحه اول

طراحی فیزیکی پایگاه داده های آماربرداری جنگل های شمال بر اساس مدل داده موجودیت ـ رابطه (entity – relationship)

مبنای اصلی تمامی طرح های جنگل داری و برنامه ریزی برای مدیریت جنگل های شمال، آماربرداری هایی هستند که بر اساس روش تصادفی سیستماتیک در این جنگل ها انجام می گیرد. اما متأسفانه سیستمی کارآمد و انعطاف پذیر برای تجزیه و تحلیل و پردازش این حجم عظیم اطلاعات آماربرداری که توسط سازمان جنگل ها و مراتع کشور جمع آوری می شود، وجود ندارد. بنابراین یک نیاز ضروری برای سازماندهی این داده ها و اطلاعات و ارائه آنه...

متن کامل

طراحی فیزیکی پایگاه داده‌های آماربرداری جنگل‌های شمال‌ بر اساس مدل داده موجودیت ـ رابطه (Entity – relationship)

مبنای اصلی تمامی طرح‌های جنگل‌داری و برنامه‌ریزی برای مدیریت جنگل‌های شمال، آماربرداری‌هایی هستند که بر اساس روش تصادفی سیستماتیک در این جنگل‌ها انجام می‌گیرد. اما متأسفانه سیستمی کارآمد و انعطاف‌پذیر برای تجزیه و تحلیل و پردازش این حجم عظیم اطلاعات آماربرداری که توسط سازمان جنگل‌ها و مراتع کشور جمع‌آوری می‌شود، وجود ندارد. بنابراین یک نیاز ضروری برای سازماندهی این داده‌ها و اطلاعات و ارائه آنه...

متن کامل

سیستم شناسایی موجودیت های نامدار در متون فارسی

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش ...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان

کلمات کلیدی

وب داده اتصال همانندی انتشار تشابه الگوریتم k نزدیکترین همسایه

میزبانی شده توسط پلتفرم ابری doprax.com